Reti corticali di tasselli vocali per riconoscere identità ed emozioni delle voci

LORENZO L. BORGIA

NOTE E NOTIZIE - Anno XIX – 22 gennaio 2022.

Testi pubblicati sul sito www.brainmindlife.org della Società Nazionale di Neuroscienze “Brain, Mind & Life - Italia” (BM&L-Italia). Oltre a notizie o commenti relativi a fatti ed eventi rilevanti per la Società, la sezione “note e notizie” presenta settimanalmente lavori neuroscientifici selezionati fra quelli pubblicati o in corso di pubblicazione sulle maggiori riviste e il cui argomento è oggetto di studio dei soci componenti lo staff dei recensori della Commissione Scientifica della Società.

[Tipologia del testo: RECENSIONE]

Il mistero della voce è suggestivo: pensiamo che

fin dal grembo di nostra madre impariamo a

riconoscere la sua voce e quella del papà…

[Papa Francesco]

La voce dell’uomo è l’apologia della musica.

[Friedrich Nietzsche]

Nulla altera le qualità materiali della voce

quanto il fatto di contenere il pensiero.

[Marcel Proust]

Eravamo in una delle librerie più frequentate di Firenze per la sua attività convegnistica, il presidente della nostra società scientifica ed io, quando sentimmo distintamente alle nostre spalle pronunciare in inglese con accento newyorkese una breve frase con una timbrica vocale che ci era cara e familiare. Ci siamo guardati negli occhi, sospesi per un istante – e dopo ci siamo comunicati che nella nostra mente sono passati gli stessi ricordi – ma nessuno dei due si è voltato per guardare chi fosse, perché sapevamo che non poteva essere lui, per un’infinità di ragioni o, meglio, per una sola ragione che metteva a tacere tutte le altre: Gerald Edelman era morto il 17 maggio del 2014.

Cercando di razionalizzare, ci siamo detti che gli indici acustici delle frequenze adottati dal nostro cervello per il riconoscimento della voce dell’autore della teoria della selezione dei gruppi neuronici dovevano essere molto simili a quelli appena uditi o che, semplicemente, avevamo una memoria non così finemente discriminata e, dunque, le frequenze timbriche di una laringe di un uomo di mezza età associate alla dinamica fonoarticolatoria tipica dell’accento prosodico di New York, possono averci ingannato. Ma nella vita di tutti i giorni, nella massima parte dei casi e per la maggior parte delle persone, il riconoscimento vocale avviene senza errori, e rappresenta una delle più sorprendenti tra le abilità basate sulla fisiologia percettiva naturale. Introducendo questo argomento così si esprimeva il nostro presidente una decina d’anni or sono:

“La capacità di evocazione della voce umana costituisce uno dei capitoli più suggestivi, affascinanti e complessi del rapporto tra percezione ed esperienza psichica. Ciò che può essere evocato da poche centinaia di millisecondi di stimoli acustici alle giuste frequenze sonore, in alcuni casi sembra avere le dimensioni di un vero e proprio mondo e, molto spesso, attiene ad una tranches de vie in cui l’identità del soggetto della voce ha avuto un ruolo, un peso o un’influenza nella vita affettiva, emotiva, cognitiva o lavorativa di chi ascolta, magari per la frequentazione assidua di un periodo o per veri e propri rapporti di parentela, amicizia o colleganza. È sufficiente un breve ascolto perché si abbia il riconoscimento della voce e la simultanea attualizzazione dei contenuti associati nel nostro cervello: l’udito ha portato il codice dell’identità del parlante nel cuore delle memorie autobiografiche di chi ascolta, dove ha agito come una chiave che ha aperto la sua specifica serratura di contenuti psichici, costituiti da stati funzionali delle reti neuroniche cerebrali.

Il processo di riconoscimento identitario legato alla voce è ordinariamente integrato dalla percezione del tono affettivo-emozionale del parlante, che rivela una particolare efficacia discriminativa quando si tratti di una persona cara o bene conosciuta dall’ascoltatore. Questo aspetto non deve essere sottovalutato perché, se è vero che in generale questa abilità non meraviglia in quanto ha una lunga storia filogenetica, rivelata dalla capacità del cane di riconoscere gli elementi di ostilità all’ascolto vocale svelata da un correlato nel nucleo accumbens, nella realtà umana costituisce un cardine di processi alla base del rapporto psicologico con l’altro, dalla genesi di conflittualità alle manifestazioni di empatia”[1].

Non solo la capacità umana di identificare voci conosciute in vari esperimenti si è mostrata superiore a quella di sofisticati softwares sviluppati sull’analisi spettrografica di sintetizzatori vocali, ma un’abilità simultanea in questo processo del cervello umano è data dalla capacità di riconoscere lo stato affettivo o la particolare emozione che può modulare la parola, ossia quell’atto locutorio che Fernand De Saussure definiva esecuzione individuale della lingua che accomuna i parlanti. Con un brevissimo ascolto anche un bambino è in grado di riconoscere tra tante voci quella di un compagno di scuola, di un’insegnante, di una zia o di una vicina di casa e, anche da una sola parola sapere se è allegra, preoccupata o adirata[2]. Nonostante i numerosi studi condotti per decifrare le basi neurofunzionali di queste abilità e alcuni risultati significativi, il modo in cui il cervello elabora la voce non è stato ancora definito; in particolare, non c’è accordo fra i ricercatori circa il modo esclusivo per la voce o comune ad altri stimoli acustici del processing dei segnali che da una laringe umana giungono all’area 41 di Brodmann della corteccia temporale del ricevente, con la mediazione di orecchio esterno e medio, coclea e vie acustiche.

Un nuovo studio, condotto da Yang Zhang e colleghi, ha identificato un’organizzazione gerarchica di reti corticali dedicate all’elaborazione della voce, che segue un criterio funzionale simile a quello del sistema identificato nella corteccia visiva dei primati per l’elaborazione dei volti. Lo studio qui recensito è di notevole rilievo neuroscientifico perché non indica soltanto correlati neurofunzionali di un processo legato a un particolare canale percettivo, ma fornisce un contributo a quel mosaico di nozioni che sta delineando un modo più generale di organizzazione funzionale del cervello per l’attribuzione di valori di identità e significato a elementi quali i volti e le voci.

(Zhang Y., et al., Hierarchical cortical networks of “voice patches” for processing voices in human brain. Proceedings of the National Academy of Sciences USA 118 (52): e2113887118, December 28, 2021).

La provenienza degli autori è la seguente: Tsinghua Laboratory of Brain and Intelligence (THBI), Tsinghua University, Beijing (Cina); Department of Biomedical Engineering, School of Medicine, Tsinghua University, Beijing (Cina); Department of Biomedical Engineering, Johns Hopkins University, Baltimore, MD (USA); Shanghai Mental Health Center, Shanghai Jiao Tong University School of Medicine, Shanghai (Cina); Department of Epilepsy Center, Tsinghua University, Beijing (Cina); Department of Neurosurgery, General Hospital of People’s Liberation Army, Beijing (Cina).

La voce per gli antichi era metonimia del logos, infatti Plutarco dice che cercare la virtù nelle persone male educate è come cercare la voce nei pesci.

La cultura antica ci aiuta a comprendere quanto la voce sia stata importante nella realtà umana e non solo per l’uso che ne facevano i retori e, a loro imitazione, avvocati, politici e capi militari, ma anche per il ruolo di veicolo sui generis del pensiero, ben distinto dalla parola scritta. Euripide nella gara con Eschilo si vanta che i suoi spettatori avevano imparato a parlare assistendo alle rappresentazioni delle sue opere[3]. Ma il merito non poteva attribuirsi esclusivamente ai testi, perché erano state le voci degli attori a imprimersi nella mente degli ascoltatori, e il registro timbrico degli interpreti era rimasto indelebilmente legato alla calibratura dei pensieri, tanto nel loro senso logico quanto nel loro valore affettivo. Di ciò è ben consapevole William Shakespeare, padre riconosciuto dai contemporanei dell’inglese moderno, non per aver scritto trattati di grammatica, ma per essere stato interpretato dalla valentia delle voci di attori capaci di rendere tutte le sfumature, le sottigliezze, le profondità, i doppi sensi, le intensità dei sentimenti e dei ragionamenti di copioni che sono diventati modello di lingua, pensiero e cultura.

Se Nietzsche valorizzava così tanto le modulazioni della voce da considerarle “apologia della musica”, il grande musicista Richard Strauss, riprendendo la metonimia di senso che nell’attività vocale comprende tutto il linguaggio-pensiero che vi sono connessi, riconosce che la voce umana possa essere il più bello degli strumenti ma, in senso proprio, rimane il più difficile da suonare bene.

Probabilmente, proprio questo intimo rapporto – testimoniato dalla cultura – tra la voce e tanti aspetti differenti della psiche umana, è all’origine di una codifica cerebrale della voce umana tanto efficiente ma altrettanto difficile da decifrare. È ragionevole supporre che il legame fra i caratteri acustici dell’esecuzione locutoria e i suoi valori di senso si sia evoluto con tutto l’encefalo, così da consentire quelle straordinarie prestazioni di riconoscimento di identità e attribuzione di qualità affettivo-emotiva che appartengono alla nostra esperienza quotidiana.

Per indagare in vivo i meccanismi di elaborazione cerebrale dell’informazione uditiva prodotta dall’ascolto della voce umana, Yang Zhang e colleghi hanno registrato segnali elettrocorticografici provenienti da elettrodi intracranici impiantati a fine terapeutico nel cervello di pazienti affetti da disturbi epilettici, mentre questi volontari prestavano ascolto a 6 differenti categorie di voci e, per confronto di controllo, a suoni classificati come “non vocali”, ovvero frequenze acustiche provviste di alcuni tratti comuni con i suoni della voce umana ma scientificamente differenti nei connotati percettivi.

L’esame dei tracciati registrati ha subito fatto rilevare che alcune sub-regioni del lobo temporale mostravano preferenze per distinti stimoli vocali. A tali circoscritti territori di corteccia è stato attribuita la denominazione di “chiazze vocali” (voice patches)[4].

Le analisi di latenza hanno suggerito una doppia organizzazione gerarchica delle chiazze o tasselli vocali della corteccia del lobo temporale. I ricercatori hanno poi accertato che le aree circoscritte di sensibilità alla voce erano funzionalmente connesse, sia quando il soggetto era impegnato nel compito sperimentale, sia quando il suo cervello era in apparente stato di riposo.

Un’altra osservazione rilevante, derivata dallo studio dei tracciati elettrocorticografici, è che le aree motorie di sinistra erano co-attivate e correlate con le chiazze vocali del lobo temporale durante il compito di ascolto di suoni.

L’insieme dei dati rilevati, per il cui dettaglio si rinvia alla lettura integrale del testo del lavoro originale, rivela un’organizzazione in reti corticali gerarchiche nel cervello umano per l’elaborazione della voce dei propri simili.

L’autore della nota ringrazia la dottoressa Isabella Floriani per la correzione della bozza e invita alla lettura delle recensioni di argomento connesso che appaiono nella sezione “NOTE E NOTIZIE” del sito (utilizzare il motore interno nella pagina “CERCA”).

Lorenzo L. Borgia

BM&L-22 gennaio 2022

www.brainmindlife.org

________________________________________________________________________________

La Società Nazionale di Neuroscienze BM&L-Italia, affiliata alla International Society of Neuroscience, è registrata presso l’Agenzia delle Entrate di Firenze, Ufficio Firenze 1, in data 16 gennaio 2003 con codice fiscale 94098840484, come organizzazione scientifica e culturale non-profit.

[1] Giuseppe Perrella, Riconoscimento di identità e stato affettivo-emozionale dalla voce – relazione al seminario su Effetti della percezione acustica e della musica sul cervello, p. 1, BM&L-Italia, Firenze 2012.

[2] Il riferimento è a vecchi esperimenti che si conducevano escludendo il riconoscimento vocale di genitori, fratelli ed altri parenti conviventi che si adottava

[3] Il fatto è notorio, ma è opportuno ricordarne la menzione e il commento di Nietzsche, che lo ha reso nuovamente attuale a partire dal XIX secolo (Friedrich Nietzsche, Nascita della Tragedia, p. 77, Adelphi, Milano 2000).

[4] Si è preferita questa traduzione (tra i più comuni significati di patch: toppa, pezza e chiazza) perché adottata in altri casi da altri autori italiani. Il nostro presidente preferisce una traduzione più libera, ma che forse rende meglio in italiano il concetto di “parte circoscritta” che compone un insieme, ossia tassello o tessera di mosaico.